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融合 背景 估计 与 U-Net 的 文档 图 像 二 值 化 算法 
能 Kt ^ ERR, + 娟 E XIJ BIA, 曾 春 艳 ab 


(湖北 工业 大 学 a 电气 与 电子 工程 学 院 ; b. 太阳 能 高 效 利 用 湖北 省 协同 创新 中 心 , AM 430068) 


JE 要 : 针对 低 质 量 文档 图 像 存在 页 面 污渍 、 时 迹 浸润 、 背 景 纹理 等 多 种 退化 因素 ,提出 一 种 融合 背景 估计 与 U 型 

卷 积 神经 网 络 (U-Neb) 的 文档 图 像 二 值 化 算法 。 该 算法 首先 进行 A 像 对 比 度 增 强 ， 然 后 通过 形态 学 闭 操作 来 估计 文档 

sa 并 利用 全 卷 积 网 络 ， 即 U-Net 对 背景 减 除 图 像 进行 前 景 背 景 分 割 ， 最 后 采用 全 局 最 优 阔 值 处 理 方 法 获得 
终 二 值 图 像 。 实 验 结果 表明 ， 在 2016 和 2017 AE ee 本 文 算法 的 下 值 (F-measure，FM)、 

F 1ü (pseudo F-measure, p-FM), %£ 4# fà 2% KC (peak signal to noise ratio, PSNR), pi 倒数 失真 度量 (distance reciprocal 

distortion，DRD) 比 性 能 次 优 的 经 典 算法 最 高 有 5.5896. 2.4796. 0.86dB. 1.199685 PE fe 4& 4T. 
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Document image binarization algorithm based on backeround estimation and u-net 


Xiong Wei* >, Wang Xinrui*, Wang Juan* >, Liu Mina, Zeng Chunyan**, 
(a. School of Electrical & Electronic Engineering, b. Hubei Collaborative Innovation Center for High-efficiency Utilization 
of Solar Energy, Hubei University of Technology, Wuhan 430068, China) 


Abstract: Degraded document images have various degradation factors, such as page stains, ink bleed-through, and 
background texture. We propose a novel document image binarization algorithm based on background estimation and U-Net. 


The algorithm first performs image contrast enhancement, and estimates the document background via morphological 


closing operations. We then adopt a fully convolutional network, namely the U-Net, to extract the foreground text from the 
document background. Finally, the global optimal thresholding method is used to obtain the resulting binary image. The 
proposed technique has been extensively evaluated over the recent DIBCO benchmark datasets. Experimental results show 
that our proposed method outperforms other state-of-the-art document image binarization algorithms in terms of F-measure, 
pseudo F-measure, PSNR and DRD, with 5.58%, 2.4796, 0.86dB and 1.19%. 

Key words: document image binarization; contrast enhancement; morphological closing operation; u-net; global optimal 
thresholding 


0 引言 亮度 不 均匀 产生 的 影响 (LMM 算法 ), 但 处 理 边缘 区 域 时 存在 
= 字符 中 空 现 象 。Lu 等 人 00 基 于 邻 域内 像素 点 的 差异 , 检测 
图 像 二 值 化 作为 识别 与 分 析 文 档 图 像 的 预 处 理 步骤 ,被 。 字符 边缘 并 估计 字符 宽度 进而 完成 二 值 化 (BESE 算法 ), 但 
广泛 应 用 于 古籍 文档 修复 ， 签 名 验证 等 领域 由。 受 物 理 条 件 ”法 抑制 背景 污渍 的 能 力 较 差 。Howe 通过 图 割 方法 实现 能 
和 人 为 因素 的 影响 ， 低 质量 文档 图 像 具 有 页 面 污渍 等 复杂 背 函数 最 小 化 完成 图 像 分 割 00， 并 对 算法 的 结构 参数 进行 调 人 
景 特性 所， 导致 图 像 的 目标 信息 与 背景 差异 较 小 ， 因 此 低 质 1， 但 是 该 类 算法 处 理 低 对 比 度 图 像 会 损失 部 分 笔画 细节 。 
量 文档 图 像 二 值 化 极 具 挑战 性 器 。 Mesquital3 提 出 一 种 人 眼 视觉 模型 ， 基 于 能 量 函 数 最 小 化 与 
文档 图 像 二 值 化 算法 划分 为 全 局 效 值 法 ， 局 部 阔 值 法 和 IEF-Race 方法 ， 区 分 文本 与 背景 像素 点 。Kligler04 依 据 文档 
混合 阔 值 法 内。 全 局 阔 值 法 通过 选取 固定 阔 值 G+ 作用 于 所 有 图 像 的 亮度 变化 将 估计 背景 移 除 ， 利 用 图 割 算 法 得 到 二 值 结 
像素 点 ， 将 图 像 分 为 前 景 与 背景 两 大 类 ， 算 法 优点 在 于 复杂 ， 果 ， 但 算法 会 将 浸润 的 墨迹 错 判 为 字符 。Tensmeyer05 结 合 
度 较 低 ， 但 处 理 具 有 复杂 背景 特性 的 图 像 会 造成 文本 丢失 ， 相对 暗 特 征 与 能 量 函 数 ， 采 用 5 层 全 卷 积 神经 网 络 完成 图 像 
经 典 的 全 局 阔 值 法 有 Otsu 算法 外 等 。 局 部 闵 值 法 基于 滑动 二 值 化 ， 该 算法 虽然 能 够 较 好 的 抑制 背景 污渍 ， 但 是 容易 造 
与 图 像 的 卷 积 操作 来 设 定 每 个 像素 点 的 阔 值 。Wolf' 利用 图 成 笔画 断裂 。 此 外 还 有 参数 调 优 法 L199、 分 类 器 法 L111、 聚 类 法 
像 的 归 一 化 对 比 度 和 和 邻 域内 标准 差 与 灰 度 均值 ， 从 而 进行 局 (8 等 混合 闵 值 算法 。 本 文 将 背景 估计 与 U 型 卷 积 神经 网 络 相 
部 二 值 化。 局 部 阔 值 法 还 包括 Sauvola $2:5Ul. Niblack 算法 结合 ， 从 而 实现 文档 图 像 二 值 化 ， 并 通过 实验 对 比分 析 验 证 
[8 等 。 此 类 算法 适用 性 强 ， 但 性 能 依赖 邻 域 的 窗口 尺寸 。 本 文 方法 的 性 能 。 
Su 等 人 中 将 局 部 灰 度 值 作 归 一 化 处 理 ， 以 抑制 图 像 背景 
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UH fe oth, g: 
1 ， 融合 背景 估计 与 U 型 卷 积 神经 网 络 的 文档 图 像 
二 值 化 算 ; 
1.1 算法 流程 
本 文 提出 方法 的 模型 如 图 1 所 示 。 
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图 1 


算法 流程 图 
Fig.1 Algorithm flowchart 
a) 对 彩色 文档 图 像 f(x,y) 作 灰 度 处 理 得 到 灰 度 图 fs， 并 
对 图 像 fo 进行 对 比 度 增强 ; 
b) 利 用 形态 学 闭 操作 估计 对 比 度 增强 图 像 fs 的 背景 , 其 
结构 元 的 大 小 与 文字 笔画 宽度 有 关 ; 
co) 结 合 对 比 度 增强 图 fs 与 背景 估计 图 hh ,得 到 去 除 背 景 
EE es ; 
d) 通 过 U-Net 网 络 实现 对 背景 减 除 图 fw 的 分 割 得 到 图 
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笔画 宽度 估计 SWE 如 式 (3) 所 示 。 


SWE -—— » s(x, y) 


NUM (uo 


的 个 数 。 


其 中 : num 表示 笔画 宽度 变换 算法 


使 用 
到 估计 背景 图 As, 
关 ， 如 式 (4) 所 示 。 


Em 


E £k J yox AR J AE a 


fa *b= (f, 6b) ob 
其 中 : @ 表示 膨胀 ，© 表示 腐蚀 ，2 


d=SWE+ Ad ( Ad 为 增 量 )。 


计算 灰 度 变换 


图 feo 与 背景 估计 


E fur ， 如 图 2(e) 所 示 ， 并 将 差 值 


除 图 few ， 如 图 2 所 示 。 与 次 度 


景 污渍 ， 有 利于 字符 与 背景 


(a) 原 始 文档 图 像 
` 
- ` @ © 
9. 4 
) 


(d) 背 景 估计 图 fos 


(e) 差 值 


n 


图 2 


图 


像 增强 
Fig.2 Image enhancement 


图 f 进行 形态 学 闭 操作 得 
如 图 2d) Atax, 结构 元 直径 和 笔 
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(3) 


的 输出 矩阵 sy) 中 不 为 0 


笔画 宽度 有 


(4) 


从 表 结构 元 ， 的 直径 为 


图 ^. 的 绝对 差 值 ， 得 到 
图 像 fr 取 反 获得 背景 减 
图 像 相 比 ， 抑 制 了 图 像 背 
的 分 割 。 
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(c) 灰 度 变换 图 fo 
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(背景 减 除 图 jesm 


为 确定 Ad 的 值 , 选取 2009 至 2014 年 国际 文档 图 像 二 值 
化 竞赛 (Document Image Binarization Contest, DIBCO) 所 提供 


的 图 像 ( 


B foe» FEB Otsu 算法 得 到 二 值 结果 图 像 fw o 
12 背景 估计 

对 原始 文档 图 像 采 用 加 权 平 均 法 ， 如 式 (1) 所 示 ， 作 砍 度 
化 处 理 得 到 图 fos, "nl 2(b) 所 示 。 


Feray (x, Y) = 0.299 f, (x, y) +0.587 fo (x, y) 0.114 fs (x, y) (1) 
其 中 : flay). feG.y). fae» 分 别 表示 图 像 R、GCG 、8 三 通 
道 的 分 量 。 

对 灰 度 图 fos 作 线性 灰 度 变换 操作 ， 如 式 (2) 所 示 ， 得 到 
图 像 f% 如 图 2(c) 所 示 , 此 时 图 像 a 中 字符 与 背景 之 间 的 对 比 
度 得 到 提高 。 


h, fos 06 3) <h 


Mf y(t Yh) +h 


[^ =h 


fa Gay) = h< fow) <h (2) 


h fos (x, y) > L, 
其 中 :图 像 feo 中 灰 度 值 小 于 4 和 大 于 4 的 像素 点 分 别 占 整 幅 
图 像 的 1% ，h=0 、 如 =255 表示 灰 度 变换 图 像 fs 的 灰 度 值 范 
H. 
笔画 宽度 变换 算法 051 利 用 Canny 算 子 计算 像素 点 P 的 梯 
度 d, ， 沿 射线 "=Ptned,(n>0) 寻找 匹配 点 4 (梯度 为 4 )。 若 


dy d, 的 方向 相反 则 计算 欧式 距离 |p-ql， 并 将 ?与 4 之 间 


J 


的 点 赋值 为 |p-all( 排 除 已 被 指定 更 小 值 的 像素 点 )， 若 未 能 
找到 满足 条 件 的 像素 点 则 将 射线 “=P+mw RE, BR f 的 


Lit 76 张 ) 作 为 训练 集 ， 采 用 


图 像 进 行 


H.rH: 


3 值 化 ， 并 使 ) J 
所 示 ， 训 练 结 果 如 表 1 所 示 。 


_ 2x RCxPR 
RC+PR 


RC= 
TP+ FN 


Otsu 算法 对 背景 减 除 
F 值 对 输出 结果 进行 评估 ， 如 式 (5) 


(5) 


TP 代表 查 全 率 ，PR=_ 了 代表 查 准 率 ，7P 


TP + FP 
表示 为 正确 肯定 像素 数 ，FP 表示 为 错误 肯定 像素 数 ，FN 表 
示 为 错误 否定 像素 数 。 


dl 训练 结果 
Table 1 Training results 

Ad FM Ad FM Ad FM 
1 73.349 11 87.927 21 87.210 
2 81.205 12 87.914 22 87.124 
3 84.848 13 87.793 23 87.059 
4 86.498 14 87.667 24 86.984 
5 87.454 15 87.603 25 86.947 
6 87.783 16 87.537 26 86.886 
7 87.897 17 87.443 27 86.833 
8 88.070 18 87.387 28 86.787 
9 88.036 19 87.337 29 86.750 
10 87.975 20 87.270 30 86.693 


表 1 可 知 Ad=8 时 下 值 较 大 ， 说明 此 时 背景 抑制 效果 
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较 好 ， 因 此 选取 Ad=8 进行 对 剩余 数据 集 进 行 测试 。 

1.3 U 型 卷 积 网 络 

1.3.1 U 型 卷 积 神经 网 络 模型 

于 U 型 卷 积 神经 网 络 (U-NeD29 可 以 使 用 非常 少 的 图 
像 进行 端 到 端 训练 , JE H ZE ISBI 神经 元 结构 分 割 挑战 赛 中 获 
得 了 优异 的 性 能 ， 因 此 本 文采 用 U-Net 对 去 除 背 景 后 的 图 像 
进行 前 景 与 背景 分 制 ， 网 络 模型 框 如 图 3 所 示 。 


Bow eI 


H. 


MH 


一 和 ”3x3 的 卷 积 层 +ReLU 函 数 
合并 操作 


iios TEES 池 化 层 
IH H --— RE I d 
Li si 2 > x 


图 3 U-Net 网 络 结构 图 
Fig.3 The architecture of U-Net 

U-Net 架构 主要 由 收缩 路 径 和 称 扩张 路 径 组 成 。 在 收缩 
路 径 中 ， 基 本 单元 由 两 个 3x3 卷 积 核 及 步 长 为 2 的 2x2 最 大 
池 化 组 成 ， 使 用 修正 线性 单元 作为 激活 函数 ， 在 下 采样 过 程 
中 得 到 低 分 辩 率 的 高 维特 征 图 。 在 扩张 路 径 中 对 高 维特 征 图 
进行 上 采样 ， 用 2x2 的 上 卷 积 核 进 行 反 卷 积 操作 ， 特 征 通道 
数 被 减 半 ， 并 与 收缩 路 径 中 对 应 层级 的 特征 图 进行 级 联 ， 采 
用 与 收缩 路 径 中 相同 的 两 个 3x3 的 卷 积 核 进行 卷 积 运算 。 最 
后 一 层 中 卷 积 核 大 小 为 1x1 ， 选 择 Sigmoid 函数 作为 激活 函 
数 将 输入 特征 向 量 映射 为 输出 层 ， 如 式 (6) 所 示 。 


S()-—— (6) 
loe 
其 中 : y 为 激活 函数 的 输入 特征 ，sO)y s(0.D 为 当前 像素 被 识别 


为 文本 的 概率 值 。 

网 络 采用 对 数 损失 函数 来 反映 预测 值 和 真实 值 之 间 的 差 
异 ， 具 体 如 式 (7) 所 示 ， 并 通过 反 向 传播 算法 对 网 络 模型 参数 
进行 更 新 。 


A 1 A A 
Joa, y) = =e In(S(y;)) +A- ynd- S(y;))] (7) 


其 中 : y NESE, sop 为 预测 值 ，m 为 样本 个 数 。 


1.3.2 网 络 训练 

选择 经 过 背景 估计 操作 后 的 文档 图 像 及 其 标准 图 像 作为 
网 络 的 训练 集 ， 原 始 图 像 由 2009 至 2014 年 DIBCO 提供 ， 
考虑 到 图 像 大 小 不 统一 ， 其 中 最 小 图 像 高 度 为 263， 因 此 实 
验 选取 步 长 为 214 的 256x256 窗口 将 图 像 裁 切 为 相同 大 小 的 
子 图 像 ， 如 图 4 所 示 。 将 2027 张 裁 切 图 及 其 对 应 的 标准 图 像 
作为 输入 对 模型 进行 训练 ， 并 依据 滑动 窗 位 置 完成 对 输出 图 
像 的 拼接 。 
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图 4 文档 图 像 裁 切 
Fig.4 Document image clipping 
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为 最 大 限度 利用 显存 ， 实 验 选取 学 习 率 为 104 ， 批 次 大 
小 (Batch Size) 为 单 张 图 像 ， 网 络 训练 的 迭代 次 数 为 10， 网 络 
训练 的 误差 率 变化 如 图 5 所 示 , 误差 率 处 于 0.013-0.014 说 明 
模型 达到 稳定 状态 。 


1 2 3 4 


5 6 T 8 9 10 
迭代 次 数 
图 5 错误 率 曲线 
Fig.5 Error rate curve 
1.4 全 局 最 优 阅 值 处 理 算法 
U-Net 网 络 输出 结果 如 图 6(a) 所 示 , 灰 度 直方 图 如 图 6(b) 
所 示 。 
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像素 点 数量 


Mmehrerm nadhsnjinnen ond feíbige "OU Amuo — — 
Tag sugeben. 
(a)U-Net 网 络 输出 图 像 人 b) 灰 度 直方 图 
图 6 U-Net 输出 图 像 及 其 灰 度 直方 图 
Fig.6 U-Net output and gray histogram 
由 图 6(b) 可 知 U-Net 的 输出 图 像 具 有 显著 的 双 峰 特性 ， 


对 此 本 文选 择 全 局 最 优 闵 值 处 理 算法 (Otsu) 进 行 二 值 化 , Otsu 
算法 根据 图 像 的 直方 图 分 布 特性 得 到 工 个 灰 度 级 分 量 
p,G-0,,2....,L-D , Xe &—^H BIB kel L-0 ,分别 计 算 前 景 像 


素 所 占 比 例 n(-Yp 与 背景 素 所 占 比 例 RW-=Sp .计算 前 
景 与 背景 像素 点 的 灰 度 均 值 WUD 、Alo ， 如 式 (8) 所 示 ， 并 
得 到 全 局 均值 = 。 


1 <. 
m= dip 

s (8) 
A) mes 2. 


类 间 方 差 作为 可 分 性 度量 ， 如 式 (9) 所 示 ， 根 据 类 间 方 差 
最 大 原理 ， 找 到 使 得 0800 最 大 的 上 ， 即 最 优 阔 值 上 对 图 像 进 
行 二 值 分 类 。 

oR (K) = VA A (9) 
= RGB GOL GO = Jp OF 

最 终 二 值 图 像 如 图 7(a) 所 示 ， 图 像 的 字符 完整 保留 ， 图 
6(a) 中 右 下 角 污 渍 已 被 抑制 ， 从 视觉 效果 来 看 与 标准 图 像 较 


2 ”实验 与 分 析 


实验 测试 集 数据 来 源 于 2016-2017 年 国际 文档 图 像 二 值 
化 竞赛 ， 共 计 30 张 图 像 。 本 文选 取 的 评估 指标 为 F 值 
(F-measure, FM). {H F 值 (pseudo F-measure, p-FM). 、 峰 值 信 


品 比 (PSNR)、 距 离 倒 数 失真 度量 (DRD)， 其 中 前 三 个 指标 值 
越 大 说 明 算 法 准确 性 越 高 , DRD 指标 值 越 小 说 明 像素 分 类 错 
误 率 越 低 ， 具 体 定义 请 参考 文献 [21~23]。 
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(@) 二 值 结果 图 


图 7 


像 
二 值 


(b) 标 准 图 像 
像 与 对 应 标准 图 像 
Fig.7 Binary image and ground truth 

K 2 是 本 文 算法 与 2016 和 2017 年 国际 文档 二 值 化 竞赛 
的 前 三 名 算法 (分 别 表示 为 TOP1、TOP2、TOP3) 作 对 比 ， 本 
文 算 法 的 四 项 评估 指标 值 均 优 于 前 三 名 算法 ， 说 明 本 文 提出 
的 算法 具有 更 高 的 准确 性 和 重 棒 性 。 

表 2 2016 一 2017 年 DIBCO 前 三 名 算法 对 比 
Table 2 Comparison with the top three algorithms in the 2016-2017 


图 


T 


DIBCO 
竞赛 方法 FM p-FM PSNR DRD 
TOP1 87.61 91.28 18.11 5.21 
TOP2 88.72 91.84 18.45 3.86 
DIBCO2016 
TOP3 8847 9171 18.29 3.93 
本 文 算法 8988 93.57 18.80 3.77 
TOP1 91.04 92.86 18.28 3.40 
TOP2 89.67 91.03 17.58 4.35 
DIBCO2017 
TOP3 89.42 91.52 17.61 3.56 
本 文 算法 9164 93.33 18.40 3.33 
表 3 是 本 文 算 法 与 各 类 二 值 化 算法 在 2016 年 DIBCO 数 
据 集 上 的 输出 结果 ， 其 中 - 代表 没有 该 指标 值 ，Time 代表 
时 间 复 杂 度 ， 表 示 算 法 处 理 单 张 图 像 的 平均 速度 (单位 为 $)。 


除 Score 外 表 中 参数 取 平 均值 , Score 值 代表 算法 的 综合 性 能 ， 
并 根据 Score 值 对 算法 排序 ， 具 体 如 式 (10) 所 示 。 


Score = Y RG. j) 


;: ced if 1<i<3 
wi minya: 0) if4sisM 
y = (FM, p-FM, PSNR, DRD} 为 所 有 评估 指标 的 集合 ， 为 
像 总 数 ，W 为 指标 数 ， 6 为 单项 指标 总 数 。 

为 评估 所 有 算法 性 能 ， 本 文 在 NVIDIA GTX1080 8G 
GPU 下 进行 实验 ， 由 于 未 将 时 间 复 杂 度 Time 纳入 Score 值 
的 计算 ， 算 法 执行 效率 Time 不 作为 性 能 评估 标准 。 
各 类 算法 的 评估 结果 中 Tensmeyer 算法 有 较 大 的 p-FM 
值 ， 说 明 Tensmeyer 算法 像素 分 类 正确 率 较 高 。Otsu 算法 选 


(10) 


mA; 


PR 并 
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4&3  DIBCO2016 各 类 算法 评估 指标 值 
Table 3 Evaluation results of various algorithms in DIBCO2016 


取 固 定 阐 值 进行 全 局 二 值 化 ， 因 此 处 理 图 像 速 度 较 快 ， 本 文 
和 法 有 最 高 的 FM. PSNR 值 ， 最 小 的 DRD 和 Score 值 ， 
于 复杂 度 较 高 因此 处 理 图 片 速度 较 慢 。 
表 4 是 2017 年 DIBCO 数据 集 的 测试 结果 ， 其 中 
Howe base 算法 有 较 大 的 PSNR 值 ， 说明 Howe base 算法 的 


输出 结果 与 标准 图 像 的 相似 度 较 高 。 本 文 方法 有 最 高 的 FM、 
p-FM 值 ， 最 小 的 DRD 和 Score 值 ， 从 指标 数值 方面 说 明 本 
文 方法 的 综合 性 能 比 Howe_alg3 等 传统 二 值 化 算法 更 好 ， 同 
时 优 于 Tensmeyer 所 提出 的 神经 网 络 模型 。 


算法 Rank Score FM p-FM PSNR DRD Time(s) 
本 文 算法 1 68.15 89.88 93.57 18.80 3.77 6.763 
Wolfe! 2 72.45 87.75 91.20 18.49 4.16 0.076 
Tensmeyer!?! 3 73.83 87.67 94.73 18.04 4.36 62.500 
Howe alg2!?! 4 74.30 88.12 92.76 18.30 4.38 45.455 
Sauvolal?! 5 76.51 87.78 90.62 17.95 4.58 0.075 
Howe base!?! 6 76.58 87.81 92.59 18.03 4.62 1.812 
Kligler!!*) 7 82.16 87.61 92.40 18.11 5.21 43.478 
Howe alg3!?! 8 83.57 87.47 92.28 18.05 5.35 12.500 
Howe conf!!! 9 85.14 86.26 90.22 17.24 544 2.597 
OtsuP! 10 86.26 $86.59 $89.92 17.79 5.58 0.015 
LMM"! 11 86.95 84.75 88.94 17.64 5.64 0.086 
Howe algl!?! 12 191.50 79.62 85.23 17.63 6.28 4.167 
Niblack"! 13 1035.85 42.31 42.56 6.94 106.08 0.074 
BESE!101# 14 - 87.53 91.33 18.62 4.10 16.949 
#24 DIBCO2017 各 类 算法 评估 指标 值 
Table 4 Evaluation results of various algorithms in DIBCO2017 
算法 Rank Score FM  p-FM PSNR DRD Time (s) 
本 文 算法 1 218.84 91.64 93.33 1840 3.33 7.811 
Howe alg3!"! 2 279.45 86.06 90.86 17.54 4.52 18.519 
Kligler!'* 3 298465 90.10 91.48 18.52 5.13 62.500 
Howe base?! 4 308.61 89.87 91.19 18.72 5.36 2.033 
Howe algl!?| 5 317.94 88.68 90.08 17.43 5.53 6.329 
LMM”! 6 319.42 85.86 87.24 18.39 5.60 0.093 
Howe conf!!! 7 334.42 82.25 87.79 15.84 5.78 2.833 
Howe alg2!?| 8 353.07 86.86 89.43 16.32 6.30 66.667 
OtsuP! 9 358.47 81.75 87.07 15.58 632 0.019 
Tensmeyer!!5 10 366.38 87.29 89.40 16.89 6.62 71.429 
Sauvolal?! 11 366.85 85.82 87.39 16.02 6.58 0.092 
Wolfe! 12 767.98 77.74 80.05 13.85 15.54 0.093 
Niblack"! 13 3054.91 47.76 48.35 7.16 6686 0.092 
BESEM* 14 - 89.57 91.53 17.03 4.55 19.608 
ik: *BESE 算法 处 理 图 片 DIBCO2016 8, DIBCO2017 1, 
DIBCO2017 2, DIBCO2017 3, DIBCO2017 4 , DIBCO2017_5 出 现 
报错 ，BESE 算法 的 指标 值 均 为 剔除 报错 图 片 后 的 结果 ， 因 此 未 计 
算 BESE 算法 的 Score 值 。 

如 图 8 所 示 ， 本 文选 取 三 张 具有 代表 性 的 测试 图 像 ， 分 
别 为 页 面 中 将 图 像 、 笔 画 纤细 图 像 、 墨 迹 浸润 图 像 ， 并 展示 
各 类 算法 的 二 值 化 图 像 。 

Otsu 算法 将 图 像 的 页 面 中 桨 处 与 浸润 的 墨迹 误 判 为 前 
Bes Wolf 算法 处 理 笔画 纤细 图 像 和 页 面 中 次 图 像 时 笔画 断裂 
严重 ; Niblack 算法 较 好 地 保留 了 文字 边界 信息 , 但 输出 图 像 
含有 大 量 噪点 ; Sauvola 算法 处 理 弱 笔画 时 损失 部 分 字符 纪 
节 ; LMM 算法 在 图 像 边缘 处 存在 笔画 中 空 现 象 ; BESE 算法 
将 浸润 的 笔墨 错 判 为 字符 ;文献 [11，12] 所 提出 的 算法 中 ， 
Howe algl 算法 处 理 页 面 中 兰 和 低 对 比 度 字 符 效果 较 好 ， 
Howe 的 同类 算法 在 墨迹 浸润 文档 输出 结果 中 仍 有 大 量 的 背 
景 被 错 判 为 前 景 ，Kligler 算法 二 值 化 输出 结果 中 也 有 笔画 不 
连续 现象 ， 处 理 墨 迹 浸 润 图 像 能 力 较 差 ;Tensmeyer 算法 在 
抑制 背景 的 同时 ， 容 易 忽略 细弱 笔画 。 

本 文 提出 的 方法 能 较 好 地 解决 复杂 背景 的 干扰 问题 ， 准 
确 地 分 离 出 文本 信息 ， 因 此 从 视觉 效果 方面 体现 本 文 算法 的 
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Fig. 8 Comparison of binarization results 
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明 本 文 算法 的 优越 性 能 。 
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